Weakly supervised semantic segmentation (WSSS) with image-level labels is a challenging task in computer vision. Mainstream approaches follow a multi-stage framework and suffer from high training costs. In this paper, we explore the potential of Contrastive Language-Image Pre-training models (CLIP) to localize different categories with only image-level labels and without any further training. To efficiently generate high-quality segmentation masks from CLIP, we propose a novel framework called CLIP-ES for WSSS. Our framework improves all three stages of WSSS with special designs for CLIP: 1) We introduce the softmax function into GradCAM and exploit the zero-shot ability of CLIP to suppress the confusion caused by non-target classes and backgrounds. Meanwhile, to take full advantage of CLIP, we re-explore text inputs under the WSSS setting and customize two text-driven strategies: sharpness-based prompt selection and synonym fusion. 2) To simplify the stage of CAM refinement, we propose a real-time class-aware attention-based affinity (CAA) module based on the inherent multi-head self-attention (MHSA) in CLIP-ViTs. 3) When training the final segmentation model with the masks generated by CLIP, we introduced a confidence-guided loss (CGL) to mitigate noise and focus on confident regions. Our proposed framework dramatically reduces the cost of training for WSSS and shows the capability of localizing objects in CLIP. Our CLIP-ES achieves SOTA performance on Pascal VOC 2012 and MS COCO 2014 while only taking 10% time of previous methods for the pseudo mask generation. Code is available at https://github.com/linyq2117/CLIP-ES.
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
节流是当今在线广告市场中最受欢迎的预算控制方法之一。当一个受预算受限的广告商雇用节流功能时,她可以在广告平台建议出价后选择是否参加拍卖。本文重点介绍了从理论观点重复的第二价格拍卖中的动态预算节流过程。潜在问题的一个重要特征是,广告商不知道进入市场时竞争最高的出价。为了模拟消除这种不确定性的困难,我们考虑了两种不同的信息结构。广告商可以通过全信息反馈获得每轮竞争最高的投标。同时,通过部分信息反馈,广告商只能在她参加的拍卖中获得最高竞争的出价。我们提出了OGD-CB算法,该算法涉及在线广告查询面临的同时分配学习和收入优化。在这两种情况下,我们都证明该算法保证了$ O(\ sqrt {t \ log t})$遗憾,概率$ 1- o(1/t)$相对于流体自适应节流基准。通过证明$ \ omega(\ sqrt {t})$的下限在最小的后悔中,即使是最佳的最佳选择,我们就建立了算法的近乎最佳性。最后,我们将节流的最佳流体最佳与起搏相提并论,这是另一种广泛采用的预算控制方法。这些基准的数值关系使我们对不同的在线算法进行预算管理的比较有了进一步的见解。
translated by 谷歌翻译
作为全球发病率的主要原因,肠道寄生虫感染仍然缺乏节省时间,高敏性和用户友好的检查方法。深度学习技术的发展揭示了其在生物形象中的广泛应用潜力。在本文中,我们应用了几个对象探测器,例如yolov5和变体cascadercnns,以自动区分显微镜图像中的寄生卵。通过专门设计的优化,包括原始数据增强,模型集合,传输学习和测试时间扩展,我们的模型在挑战数据集上实现了出色的性能。此外,我们的模型接受了增加的噪声训练,可以提高污染输入的较高鲁棒性,从而进一步扩大了其实践中的适用性。
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNNS)极易受到精心设计的对抗例子的影响。对那些对抗性例子的对抗性学习已被证明是防御这种攻击的最有效方法之一。目前,大多数现有的对抗示例生成方法基于一阶梯度,这几乎无法进一步改善模型的鲁棒性,尤其是在面对二阶对抗攻击时。与一阶梯度相比,二阶梯度提供了相对于自然示例的损失格局的更准确近似。受此启发的启发,我们的工作制作了二阶的对抗示例,并使用它们来训练DNNS。然而,二阶优化涉及Hessian Inverse的耗时计算。我们通过将问题转换为Krylov子空间中的优化,提出了一种近似方法,该方法显着降低了计算复杂性以加快训练过程。在矿工和CIFAR-10数据集上进行的广泛实验表明,我们使用二阶对抗示例的对抗性学习优于其他FISRT-阶方法,这可以改善针对广泛攻击的模型稳健性。
translated by 谷歌翻译
使用神经网络代表3D对象已变得流行。但是,许多以前的作品采用具有固定体系结构和大小的神经网络来表示不同的3D对象,这导致简单对象的网络参数过多,并且对复杂对象的重建精度有限。对于每个3D模型,希望拥有尽可能少的参数以实现高保真重建的端到端神经网络。在本文中,我们提出了一种利用神经体系结构搜索(NAS)和二进制分类的高效体素重建方法。以层数,每一层的节点数量以及每一层的激活函数为搜索空间,可以根据强化学习技术获得特定的网络体系结构。此外,为了摆脱网络推理后使用的传统表面重建算法(例如,行进立方体),我们通过对二进制体素进行分类来完成端到端网络。与其他签名的距离字段(SDF)预测或二进制分类网络相比,我们的方法使用更少的网络参数获得了更高的重建精度。
translated by 谷歌翻译
本文提出了一种深入学习辅助合成方法,用于使用3D EM结构的RF / MM波被动匹配网络直接端到端生成。与从目标电路分量值和目标拓扑结构合成EM结构的现有方法不同,我们所提出的方法实现了从所需性能值的网络拓扑到输入的网络拓扑的直接合成。我们在片上1:1个变压器的阻抗匹配网络上展示所提出的合成神经网络(NN)模型。通过利用参数共享,综合NN模型成功提取了输入阻抗和负载电容器的相关特征,并在45nm的SOI进程中预测了变压器3D EM几何体,该过程将与标准50 $ \ Omega $负载匹配目标输入阻抗吸收两个装载电容器。作为概念验证,合成了几个示例变压器几何形状,并在ANSYS HFS中验证以提供所需的输入阻抗。
translated by 谷歌翻译
质量估计,作为机器翻译的质量控制的关键步骤,多年来已经探讨过。目标是调查估计机器翻译结果的自动方法而无需参考翻译。在今年的WMT QE共享任务中,我们利用了大规模的XLM-Roberta预训练模型,另外提出了几种有用的功能来评估翻译的不确定性,以构建我们的QE系统,命名为\ texit {qemind}。该系统已应用于直接评估的句子级评分任务和严重错误检测的二进制评分预测任务。在本文中,我们向WMT 2021 QE共享任务提供了我们的提交,并且广泛的实验结果表明我们的多语言系统在WMT 2020的直接评估QE任务中表现出最佳系统。
translated by 谷歌翻译
无需后续文本分割的准确布局分析仍然是一个持续的挑战,特别是在面对kangyur时,一种历史藏文档,具有相当大的触摸部件和斑驳的背景。旨在识别文档图像中的不同区域,对于诸如字符识别的后续程序,布局分析是必不可少的。然而,只有一点研究正在进行执行线路级布局分析,该分析未能处理Kangyur。为了获得最佳结果,提出了一种细粒度的子线级布局分析方法。首先,我们推出了一种加速方法来构建动态且可靠的数据集。其次,根据kangyur的特征对索洛夫2进行了增强。然后,我们在训练阶段将增强索入索维2馈出了准备的注释文件。一旦培训网络,可以在推断阶段分段和识别文本行,句子和标题的文本行和标题的实例。实验结果表明,该方法在我们的数据集中提供了一个体面的72.7%的平均精度。通常,这项初步研究提供了对细粒度的子线级布局分析的见解,并证明了基于索洛夫2的方法。我们还认为,所提出的方法可以在具有各种布局的其他语言文件上采用。
translated by 谷歌翻译